期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于多通道多步融合的生成式视觉对话模型
陈思航, 江爱文, 崔朝阳, 王明文
《计算机应用》唯一官方网站    2024, 44 (1): 39-46.   DOI: 10.11772/j.issn.1001-9081.2023010055
摘要156)   HTML2)    PDF (3323KB)(117)    收藏

当前视觉对话任务在多模态信息融合和推理方面取得了较大进展,但是,在回答一些涉及具有比较明确语义属性和位置空间关系的问题时,主流模型的能力依然有限。比较少的主流模型在正式响应之前能够显式地提供有关图像内容的、语义充分的细粒度表达。视觉特征表示与对话历史、当前问句等文本语义之间缺少必要的、缓解语义鸿沟的桥梁,因此提出一种基于多通道多步融合的视觉对话模型MCMI。该模型显式提供一组关于视觉内容的细粒度语义描述信息,并通过“视觉-语义-对话”历史三者相互作用和多步融合,能够丰富问题的语义表示,实现较为准确的答案解码。在VisDial v0.9/VisDial v1.0数据集中,MCMI模型较基准模型双通道多跳推理模型(DMRM),平均倒数排名(MRR)分别提升了1.95和2.12个百分点,召回率(R@1)分别提升了2.62和3.09个百分点,正确答案平均排名(Mean)分别提升了0.88和0.99;在VisDial v1.0数据集中,较最新模型UTC(Unified Transformer Contrastive learning model), MRR、R@1、Mean分别提升了0.06百分点,0.68百分点和1.47。为了进一步评估生成对话的质量,提出类图灵测试响应通过比例M1和对话质量分数(五分制)M2两个人工评价指标。在VisDial v0.9数据集中,相较于基准模型DMRM,MCMI模型的M1和M2指标分别提高了9.00百分点和0.70。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 基于前—后向光流点匹配运动熵的视频抖动检测算法
江爱文 刘长红 王明文
计算机应用    2013, 33 (10): 2918-2921.  
摘要502)      PDF (671KB)(630)    收藏
目前大部分视频监控系统面临着高效实时性智能分析与低效滞后的人工故障排查的矛盾。视频质量智能诊断系统可以为此提供有效的解决方案。针对视频质量诊断系统中的画面抖动异常检测问题,提出一种简单有效的实用算法。该算法通过有效融合图像的稀疏光流与特征点匹配算法,根据前向-后向误差标准估计图像帧的全局运动参数,引入连续帧的运动熵用于衡量视频画面片段运动的混乱程度,判断是否存在视频抖动现象。算法在不同分辨率的实际监控录像数据集上进行了测试和比较。实验证明,该算法在一定程度上克服了大位移抖动的影响,具备良好的实时特性以及较高的检测精度,能够满足实际工作的需求。
相关文章 | 多维度评价